在不同狀態下採取不同動作的價值(Q值),來最大化長期獎勵
這個學習方法跟模型無關,適合用在具有馬可夫性質環境的情況
當前的狀態包含足夠的資訊,可以完全描述過去和未來的環境狀態
初始化 Q 表格:
創建一個 Q 表格,跟蹤每個狀態-動作對的 Q 值
表格的大小由環境中的狀態數和動作數確定
初始 Q 值可以設置為零或任何其他適當的值
選擇動作:
選擇一種策略來決定在當前狀態下執行的動作
這代表可能會採取隨機動作來鼓勵探索,來選擇具有最高 Q 值的動作
執行動作:
在當前狀態下執行所選的動作,然後觀察環境中的新狀態和相應的獎勵
更新Q值:
使用公式來更新Q值
New Q(s, a) = Q(s, a) + α * [R + γ * max(Q(s', a')) - Q(s, a)]
Q(s, a) 是在狀態 s 下執行動作 a 的 Q 值
α 是學習率,控制 Q 值更新的幅度
R 是在執行動作 a 後觀察到的即時獎勵
γ 是折扣因子,用於考慮未來的獎勵
s' 是執行動作 a 後觀察到的新狀態
a' 是在新狀態 s' 下選擇的動作